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Моделювання мовного апарату людини 
в задачах комп'ютерного синтезу 


У статті отримала розвиток методика розв'язання проблеми синтезу мовної інформації, що дозволило 
розв'язати задачу штучного утворення звуків голосу людини на основі спільного використання фізичних 
моделей голосового джерела та мовного тракту. На базі розроблених алгоритмів створено програмно- 
алгоритмічний комплекс для дослідження впливу параметрів моделей у системі «голосове джерело - 
мовний тракт» на мовотворення. Для акустичного рівняння Клейна - Гордона розв'язана обернена 
задача відновлення параметрів мовного тракту за вимірюваним сигналом на виході. 


Вступ 


Розвиток комп'ютерних мовних синтезаторів привів до розробки декількох під- 
ходів до їх побудови, а саме: 

- синтез на основі конкатенації відрізків записаних мовленнєвих сигналів, що 
зберігаються у мовленнєвих базах даних; 

- формантний синтез, що не використовує зразки людської мови для синтезу. 
Замість цього синтезована мова створюється з використанням акустичних моделей. 
Параметри, такі, як набір значень частот основних формант та рівні шуму, зміню- 
ються в часі та створюють сигнал штучної мови; 

- артикуляторний синтез, що створює штучну мову шляхом безпосереднього мо- 
делювання людського мовного апарату. Цей метод являє собою синтез мови на базі 
обчислювальних методів, заснованих на моделях людського мовного апарату 1 арти- 
куляційних процесах, що відбуваються у ньому. Моделі мовного апарату, як правило, 
включають модель мовного тракту і модель голосових зв'язок. 

Для побудови та дослідження математичних моделей голосового джерела, що 
моделюють коливні процеси, та моделей мовного тракту, що моделюють розповсю- 
дження акустичних хвиль, використовуються чисельні методи. Для задачі відновлення 
параметрів мовного тракту за вимірюваним сигналом на виході використовується мате- 
матичний апарат розв'язання обернених задач. Проблемі розв'язання мовних оберне- 
них задач присвячені, зокрема, роботи (11, 121. 

Метою дослідження є комп'ютерне відтворення звуків, що утворює людина, 
на основі спільного використання фізичних моделей голосового джерела та мовного 
тракту. 


Модель голосових зв'язок шпізаки - Фланагана 


У моделі Шшізаки і Фланагана |3| кожна з голосових зв'язок описується двома 
масами, що зв'язані пружинами як зі стінками, так і між собою. Більш того, при- 
пускається, що зв'язки є двосторонньо симетричними. Маси, що моделюють зв'язки, 
здійснюють коливання у поперечному до руху повітря напрямку. Система рівнянь 
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для двох мас, що коливаються, записується у вигляді: 


а'х (І) ах, (1) е і М 
т, те А ЕТ як Со) хо) НК, Ок (1) - хо (1)) 2-1 4 ру (1), 


а"х,() | ах, (І) вол М М 
те ар Бо й НО (2) - Хуг) ЗК, Сх (1) - 35 (1)) є 1,.4р, о (1), 


де т, і т, - маси; х (І), х.(1) - зміщення мас т, і т,; ХуьХо - ПОЧаткОове ПОЛО- 


(1) 


ження мас т, і т,; І - час; г 1 г, - коефіцієнти демпфування; К,, К, - пружність 


пружин для мас т, і т,; К,- пружність пружини, що з'єднує маси т, і т,; 4,4, - 


С 


товщина мас т, і т,; Ї, 


- діюча довжина голосових зв'язок; /, 4, 1,4, - поверхні 
мас т, 1 т,, наякі діють тиски р, (7) і р,.(Г) відповідно. 

Розподіл тиску в голосовій щілині апроксимується послідовними дискретними 
кроками р, на кожному ) -му кінці кожної і -ї маси. Перше падіння тиску р, - р, (Г) 
виводиться з рівняння Бернуллі для ідеальної рідини у стаціонарному режимі. Вздовж 
кожної з мас падіння тиску р, |(7)- р» (1) та ро, (1) - ро (1) визначається в'язкими втра- 
тами 1 пропорційне зсувовій в'язкості повітря. Падіння тиску на стику має р, (7)- р» (1) 
еквівалентне зміні кінетичної енергії в одиниці об'єму газу. І остаточно різке розширення 
на верхньому кінці голосової щілини призводить до відновлення тиску до атмосфер- 
ного тиску р. Таким чином, система рівнянь для змін тиску записується у вигляді |З: 


Р 
ме" ) 3 Р о 5 
Аа (1) 0 А, (2) а 
и, (2) М ра, ди, 
Аа) Ар а 

1 1 
А) Аа) 


и, (1) Р» Чи, 


р, ри(1) -0.69р 


ри0)- рь(1) - 12м4, 


21 


ра)- руд я уро ), 0) 


ра(І) - Роз (І) - 12мі, 


А) А а 
р оце)| А(), Аг) 

І 2 зд у аква у 
Ро (І) Р 27 я) А ( А ) 


де р - густина повітря; и - зсувова в'язкість повітря; 4, - площа голосового тракту на 


вході; А гі 7 ПЛОЩА ГОЛОСОВОЇ щілини під і-ю масою; и б (2) - потік повітря; 
АП) є(А ніх (1), із-1,2, 


20їі 


де х (І) 2 Хот» Х5 (1) 2 Хо) го» 4,» 7 Залишкові площі в момент змикання голосових 


8 
зв'язок. 
Для визначення значень тиску р, (ї), Р, (1) використовуються співвідношення: 


раз УР роб), роде УР (раб). З) 


Шуканим розв'язком системи (1) - (3) є функція и, (7), яка визначає потік повітря 


на виході з голосової щілини. 
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Для побудови чисельного алгоритму розв'язання систем (1) та (2) використаємо 
позначення для зміщень та похідних: 


у(бех(), Ре сої у (ех), Уа ях, 
аї аї 
і перепишемо систему (1) у вигляді: 
ТИФ. 
їі ФГ, (1), 
т ВАМТОЛАЦОЛАФВ 4) 
Р) 
Ре - ф.(И, (1), 
чУХО 


а зИ (І), Р (1), У, (1), є (0,7). 
До цієї системи додаються початкові умови: 
И 0) а хо» У» (0) я хо» Ро (0) є хо» У, (0) З хор: 

Для розв'язання системи (4) будемо використовувати метод Кутта -- Мерсона |4|. 
Для використання чисельного методу здійснюється дискретизація відрізка інтегру- 
вання системи (1). Будемо використовувати рівномірне розбиття відрізка 04/«Т: 
ха ХХ ЯН, із-0..У», ХМ, -Т/А. 

Для побудови чисельного алгоритму розв'язання нелінійної системи (3) запи- 
шемо її у вигляді: 


ЛОи»и,) 20, 
Бриз Фі»и,) 20, 
Д(Фіз Рози, ) -0, (5) 


А(ру» Роз и,) -0, 
БОФози,) -0. 


Систему (5) будемо розглядати як операторне рівняння в деякому просторі. 
Нехай 


Ро (рахФі» за Фо й з 
ЕР) БР), БОРУ ДРУ ДРУ, (6) 
Е(Р)-0, 
де Е - нелінійне відображення. 

Для розв'язання системи (6) будемо використовувати метод Ньютона (4). Для цього 
запишемо розвинення для // (Р), і - 1,5 в ряд Тейлора. Тоді, згідно з методом Ньютона, 
наступне наближення до розв'язку нелінійної системи (6) знаходиться як розв'язок 
лінійної системи: 

Е"(Р')Р'" з Е"(Р'УР" - Е(Р'), де 5 - 1,2,3,.... (7) 

Для розв'язання лінійної системи (7) на кожному кроці методу Ньютона будемо 
використовувати ітераційний метод послідовної верхньої релаксації (ПІВР), ітераційна 
схема якого має вигляд: 

(0- сі ДР «1-0 ДР" на (Р'В УР" - ЕР"), 
де матриця А подана у вигляді суми діагональної, нижньої трикутної та верхньої 
трикутної матриці Е"(Р') - р -І.-Ї , о - релаксаційний параметр. 
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ЗК 


Алгоритм розв'язання системи (1) - (3) будується таким чином: нехай відомий 
розв'язок у момент часу 1,: / (7,), /,(1)5 РАІ) /, (1, ) рі ) ра(, ) Ра (1,), Ро» (1), 


и, (А ) , знаходження розв'язку системи (4) на (Кк -1)-у кроці явного методу Кутта - 


Мерсона об'єднується в єдину ітераційну процедуру з розв'язанням системи (3) ме- 
тодом послідовної верхньої релаксації (5|, згідно з яким перехід на (5 - 1)-у ітерацію 


здійснюється за формулами: 


и ее ) -і км/у, (г, )) 
р оч ) - км/у, (г ) /, (ц.) Р, (г Урі, рн ур ба ) 
Уа) з КМУ, (і) 


ИІУ ес ) - км/і, (г ) Й (/ ) /, (г ); Ра (ен ) ре» (а ) 


де КМ () позначено процедуру методу Кутта - Мерсона, а тиски знаходяться мето- 


дом ПВР наступним чином: 
Л (рі, , и, , у" за )) 
дп /дри 
5 (рі, ее ) різ (А ) и, аа ) ДР Кл )) 
д/, Фрі» 


5-1 


Рі (дра ) -оритФ 


2 


5-1 


Рі» (ае рьчФ 


2 


51 


Розі аа ) зррчФ 


95, дра 
зн таб 7 рі! СЯ бра об у уру" С )) 
Ро о Ррочо 
ді, др» 
5-1 5 ря 
або чи но С й 3 (а) 
; ди, 


Й (рі! (ія ) Рі (а ) и, они ) о (до ) реє да )) 


Ітераційна процедура вважається закінченою за виконання умови: шу" ()- 


чи (1,)|к є, де є » 0 - мала величина. Після цього здійснюється перехід на наступ- 


ний крок методу Кутта - Мерсона. Кількість кроків методу Кутта - Мерсона зале- 


жить від часу моделювання Т та необхідної точності розрахунків. 


За розробленими алгоритмами проведена серія чисельних експериментів, ре- 


зультати яких наведені на рис. 1. 


Здійснене порівняння потоку повітря, обчисленого за двомасовою моделлю, та 


потоку повітря, отриманого за аналітичною В-моделлю |біЇ: 


2 3 


Ї Ї 
с 3--| -1--| роках, 


р 
1- краї чі, є, 


де а - амплітуда, /, - час відкриття, /, - час закриття, /, - період. Результати по- 


рівняння моделей наведені на рис. 2. 
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Рисунок 1 - Потік повітря м, на виході з голосових зв'язок, виміряний за допомогою 


зворотної фільтрації |7| (зверху) та розрахований за двомасовою моделлю (знизу) (а); 
потік повітря и, обчислений для нейтрального (пунктирна лінія) та придихального 


(суцільна лінія) типу фонації (6); результати розрахунків потоку повітря и, (7) 


для трьох значень тиску на вході у голосову щілину р, - 0.02, р, - 0.0012, 


р. " 0.008 (в); потік повітря и, на виході з голосових зв'язок, обчислений з 


інерційними членами (суцільна лінія) та без них (пунктирна лінія) (г) 


04 -4 


03-43 


02-43 


ол-3 


Час, мсек 


Рисунок 2 - Потік повітря и, на виході з голосових зв'язок, обчислений 


за двомасовою моделлю (суцільна лінія), та В-моделлю (пунктирна лінія) 
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Для вивчення голосового джерела, окрім функції потоку повітря, використову- 
ється її похідна. Звичайний набір параметрів для кількісного опису коливань виводиться 
із залежності похідної потоку від часу і включає: амплітуду від'ємного піка, тривалість 
відкриття, тривалість закритої фази, проміжок часу між додатним і від'ємним піками, 
час повернення в початкове положення. 

Проведений порівняльний аналіз отриманої чисельної похідної потоку повітря 
за двомасовою моделлю та похідної потоку повітря, отриманою за аналітичною 
І Е-моделлю |8Ї: 


не яіп(со, г) 0«ркї,, 


ме РА. небо) ре 


а 
0; баба; 

де і, - період; 1, - відмітка мінімального значення похідної; /, - визначається як точка, 

в якій тангенс перетинає вісь координат; /, - момент, в який похідна під час фази за- 

криття майже досягає нуля; Е, - абсолютне значення мінімуму похідної; и, є, Фо 


деякі параметри. Результати порівняння моделей наведені на рис. 3. 


Час, мсек 


Рисунок 3 - Чисельна похідна від потоку повітря, обчисленого за двомасовою 
моделлю (пунктирна лінія), та похідна, обчислена за 1.Е-моделлю (суцільна лінія) 


Моделювання мовного тракту людини 


Для моделювання розповсюдження акустичних хвиль у мовному тракті як у 
неоднорідній акустичній трубі, що починається між голосовими зв'язками та закін- 
чується губами, використовується система рівнянь акустики в частинних похідних, 
яка записується у вигляді |9Ї: 


др зла ди 

дхо 5(х) ді! 

Я (х) (8) 
и 5 (х) др 

дхо ре ді 
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де0«хоІ,1»0, І - довжина мовного тракту; Рог) - тиск у тракті в момент часу /; 
их, 1) - об'ємна швидкість потоку; р - густина повітря в тракті; с - швидкість звуку; 
5 (х) - функція площі поперечного перерізу. 

Оскільки тракт має неоднорідний поперечний переріз, він розбивається на ци- 
ліндричні секції однакової довжини з постійною площею перерізу (рис. 4). 

Як крайова умова на вході в тракт вибирається потік и 0) , Знайдений з (1) - (3). 


Виходячи з цього, маємо крайову умову: ц(0,т) - и 0). На протилежному кінці тракту 


задаємо умову р(І./)-«0. 

Різницева задача для апроксимації системи рівнянь (3) будується на рознесеній 
сітці. Для розв'язання використовується явний метод «чехарда». Цей алгоритм має 
високу обчислювальну ефективність і може використовуватися для моделювання у 
реальному часі (10). Результати роботи алгоритму наведені на рис. 5. 


РА 
| 


Площа, см? 
І 


Довжина, см 


Рисунок 4 - Наближення мовного тракту Рисунок 5 - Результати моделювання звуку 
циліндричними секціями Га| російської мови 
однакової довжини 


Для моделювання розповсюдження акустичних хвиль також може використо- 
вуватися рівняння Вебстера |21: 


д'Р д дР 
зх знє 182) |. (9) 
ОЇ Ох дх 
де х - просторова координата уздовж середньої лінії тракту в середньо-сагітальній 
площині; Її - момент часу; р(х,І) - шуканий тиск у тракті; 5(х) - профіль площ по- 


перечного перерізу вздовж тракту; с - швидкість звуку в тракті. 
Як крайова умова на вході в тракт вибирається похідна від потоку повітря 


р м, (1) 
Р(0,д---0 Же 
5(0) аї 
цевий метод. Для розв'язання системи різницевих рівнянь використовується ітераційний 
метод послідовної верхньої релаксації. 
Розглянемо задачу відновлення форми мовного тракту за виміряними акустич- 
ними параметрами сигналу на базі акустичного рівняння Клейна - Гордона (11). Для 
цього вводиться нова змінна Ф( х, 1), яка визначається виразом: 


фОо 1) є Р(2)50977. (10) 


. Для розв'язання задачі (9) використовується скінченнорізни- 
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Це дає можливість сформулювати акустичне рівняння у формі Клейна - Гордона: 
д'фх) | з б'ф(х,т) 
2 ее 2 
ОЇ Ох 


Рівняння (11) має форму хвильового, де функція С/(х) визначена в термінах площі 


сода), О«х«ІРо«ІатТ. (11) 


поперечного перерізу мовного тракту як 
а?5сд "аа 
5(9 1/2 


ПЕЗЕ (12) 


Мовна обернена задача 


Мовна обернена задача визначається як задача знаходження функції 5(х) за ви- 
міряними параметрами мовного сигналу на виході з тракту. Математично ця задача 
розв'язується як задача пошуку мінімуму деякого функціонала за різного роду обмежень. 

Нехай на виході з тракту вимірюється тиск Р(/,І), пов'язаний з розв'язком 


рівняння Клейна - Гордона співвідношенням (10). Позначимо Ф(1) функцію, яка ви- 


мірюється на виході з тракту. 
Задача зводиться до мінімізації функціонала 


лоза ДФи) и) а, (13) 


де Ф, (1,1) - розв'язок задачі (11) при заданій функції ((х). 


Для мінімізації функціонала (13) використовується градієнтний метод |121. 
Приріст функціонала записується у вигляді: 


ї 


МИ) ОА) -О)- «| хи) ура длраї я Г49У аї, 


0 
де АДФ аеефФуціх 1) - Фу (х,1). Для визначення градієнта функціонала будується спря- 
жена задача , яка записується у вигляді: 
дО), - 20) 
о дю 
Градієнт функціонала визначається через розв'язок спряженої задачі за фор- 
мулою 


си ОРОС, 1), б«х«Рво«ІЯтТ. 


Ла-рф. 


Після визначення У (х ) можна знайти 5(х) з (12). 

У тестових розрахунках була використана наступна стратегія перевірки працездат- 
ності побудованого алгоритму та створеного програмного забезпечення. Розв'язувалась 
пряма задача та визначався сигнал на виході. Далі для розв'язування оптимізаційної 
задачі цей сигнал використовувався як виміряний. Для початкового наближення функ- 
ції С( х) використовувалась довільна функція, представлена графіком на рис. 6. 

Точність розв'язку оцінюється за процедурою ресинтезу: синтезований за знай- 
деним розв'язком сигнал має мало відрізнятися від вихідного сигналу, за параметрами 
якого вирішувалася обернена задача. Результати розрахунків наведені на рис. 7. 
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2.50 -- 120 -4 
Й 0.80 -- 


й 0.40 -- 


0.40 о ря п я и 
90 і | і | ; | ; Т | | 0.00 0.20 0.40 0.60 0.80 ї 1.00 
0.00 0.20 о40 0.60 0.80 х 100 
Рисунок 6 - Початкове наближення Рисунок 7 - Виміряний сигнал 
для функції (х ) (суцільна лінія), (суцільна лінія) х - І, та його 
уточнена функція (/(х) наближення як розв'язок оберненої 


(пунктирна лінія) задачі (пунктирна лінія) 


Програмно-алгоритмічний комплекс 


Складність фізичного явища, що вивчається, призводить до необхідності ураху- 
вання великої кількості параметрів. У свою чергу, математична модель є значною мірою 
чутливою до збурень цих параметрів. Для зручного введення та редагування вихід- 
них параметрів моделі та відображення результатів моделювання був розроблений 
програмно-алгоритмічний комплекс. Екранна форма для введення параметрів моделі 
голосових зв'язок наведена на рис. 8. 


Побукюма граки | Парамиєтрм 
Пиранитон модлли 


Печена МІ 


Дрганаса МО гі 


Рисунок 8 - Екранна форма для введення параметрів моделі голосових зв'язок 


Необхідні для вивчення джерела параметри і результати моделювання відобра- 
жаються у цифровому та графічному вигляді за допомогою екранних форм користувача. 

Для вивчення голосового джерела, окрім функції потоку, використовується його 
похідна. Приклад відображення результатів моделювання потоку та Його похідної 
наведений на рис. 9. 

Для введення і редагування вихідних даних моделі мовного тракту, зокрема задан- 
ня геометричної форми тракту та відображення результатів моделювання вихідного 
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мовного сигналу у цифровому та графічному вигляді, був розроблений графічний 
інтерфейс користувача, екранна форма якого наведена на рис. 10. За його допомогою 


користувач моделі може задавати бажану форму мовного тракту та вивчати її вплив 
на вихідний мовний сигнал (рис. 11). 


ражутьтати 0 Пяраиєтри ин 
Побудова грам | П. ою 


Рисунок 9 - Результати моделювання голосового джерела у графічному вигляді 


дноматрату вна 
важать 


І 


і 


Рисунок 11 - Екранна форма для візуалізації вихідного сигналу 
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Висновки 


У роботі запропонована 1 розроблена єдина система, яка дозволяє комп'ютерне 
відтворення звуків, що утворює людина на основі спільного використання фізичних 
моделей голосового джерела та мовного тракту. Також сформульовано 1 розв'язано 
обернену задачу відновлення параметрів мовного тракту. Подальші дослідження будуть 
направлені на удосконалення математичних методів та програмного забезпечення 
для моделювання голосових мовних сигналів. 
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Ю.В. Крак, Й.О. Стеля 

Моделирование речевого аппарата человека в задачах компьютерного синтеза 

В статье дальнейшее развитие получила методика решения проблемьт синтеза речевой информации, 
что позволило решить задачу искусственного образования звуков голоса человека, основьтваясь на 
совместном использованиий физических моделей голосового источника и речевого тракта. На базе 
разработанньх алгоритмов создан программно-алгоритмический комплекс для исследования влияния 
различньгїх параметров моделей в системе «голосовой источник -- речевой тракт» на речеобразованиє. 
Для акустического уравнения Клейна - Гордона решена обратная задача восстановления параметров 
речевого тракта по измеренному сигналу на вьтходе. 


У. У. Кгак, І.О. У51еіа 

Модеїйпо Нитап 5реесії Аррагаїшя іп Ргобіет5 ої Сотритег 5упіПе5із 

ТЬе рарег Ба5 Гигібег десусіоред Ше теїродйз ої 50ЇІміпе Ше і55цпе ої зупіфезігіпє Ме усісе Чдаїа, Шегебу 
50Їміпє Ше і55пе ої агіїйста! Боглайоп ої 5оппд8 ої а питап уоісе Ба5ед оп Бе 5Ппагей ип5е ої рбузіса! 
тоадсеіз ої їБе уоісе 5о0игсе апа уосаї гасі. Оп Ше Ба5із ої пе Феуеїоред аїсогіїрта5 Шеге маз сгеаїеа ре 
ргоєтат апа аїєогіфтіс согаріех Тог 5їидуїпо ої іпЙиєепсе ої рагатеїег5 ої (ре плодеіз їп Пе Іапоиаєе 
зоицгсе - уосаї гасі 5у5ієга оп з5реесп ргодисіїоп. Бог асоцяйїса! Кісіп - Согаоп'яє едпайоп бе іпуег5е 
ргобіет ої гесоуегіпе Бе рагатеїетя ої пе уосаї (гасі ассогаїпе (о Ше піеазигей оцбриї 5іспа! ма5 50Їуеа. 
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